\section{问题四模型的建立与求解}
	\subsection{clr变换}
	由于化学成分具有相加总和的限制，传统的统计方法直接计算相关系数会产生“伪相关”。而clr变换特别适用于\textbf{处理总和为常数的相对丰度数据}。其核心思想是通过对数比转换将 simplex 空间中的成分数据映射到实值欧几里得空间，从而消除数据的定和约束（“闭合效应”），使其适用于标准的统计分析方法。本文具体做法如下：
	\begin{equation}
		\begin{aligned}
		\begin{cases}
			& x_i'=max(x_i,10^{-4}) \\
		& \text{CLR}(x) = \ln\left(\frac{x_i'}{g(x)}\right) \\
		&  g(x) = \left(\prod_{j=1}^{p} x_j\right)^{1/p} 
		\end{cases}
	\end{aligned}
		\label{eq4:cltr变换}
	\end{equation}
	
	$x_i$为第i个化学成分的百分比，$g(x)$为几何平均数。对于数据预处理后的0值，我们在进行变换之前，便将其转换为极小值，后续的建模过程将建立在clr变换的结果上。
	\subsection{分析化学成分之间的关联关系}
	\subsubsection{皮尔逊相关系数}
	皮尔逊相关系数是一种基于协方差与标准差的线性相关度量方法，特别适用于衡量两个连续变量之间线性关系的强度与方向。其核心思想是通过计算两个变量的协方差与各自标准差的乘积之比，将相关程度标准化为一个介于-1到1之间的无量纲数值。本文中具体做法如下：
	\begin{equation}
		r_{xy}=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum{(x_i-\bar{x})^2}\sum(y_i-\bar{y})^2}}
		\label{eq4:皮尔逊相关系数}
	\end{equation}
	其中$x_i$和$y_i$为第i个样本在x,y两种物质下的clr值，由此计算得到相关系数矩阵，设置阙值，若$|r|$大于0.5，则x与y之间属实强相关关系。
	\subsubsection{模型求解}
	利用python对clr进行数据转换后，求出化学物质之间的$r_{xy}$值，将求解结果转换为图表直观展示如下：
	\begin{figure}[H]
		\centering
		
		% 第一行
		\begin{minipage}{0.48\textwidth}
			\centering
			\includegraphics[scale=0.21]{D/高钾_correlation_heatmap.png}

		\end{minipage}
		\hfill
		\begin{minipage}{0.48\textwidth}
			\centering
			\includegraphics[scale=0.21]{D/铅钡_correlation_heatmap.png}
		
		\end{minipage}
	
		\vspace{0.5cm} % 两行之间的垂直间距
	
		% 第二行
		\begin{minipage}{0.48\textwidth}
			\centering
			\includegraphics[scale=0.25]{D/高钾_strong_correlations_plot.png}
		
		\end{minipage}
		\hfill
		\begin{minipage}{0.48\textwidth}
			\centering
			\includegraphics[scale=0.25]{D/铅钡_strong_correlations_plot.png}		
		\end{minipage}
		\caption{关联关系分析结果}
		\label{fig4:关联关系结果}
	\end{figure}
	如\cref{fig4:关联关系结果}所示，\textbf{高钾玻璃中存在多组化学物质有着强相关关系}，如Pbo与Bao、Cuo与$SnO_2$以及$SiO_2$与$SnO_2$等等，而\textbf{铅钡玻璃中存在强相关关系的化学物质仅为5组},如$SiO_2$与PbO、CuO与$SnO_2$等等。
	\subsection{比较不同类别关联关系的差异性}
	首先，我们通过$\Delta r= r_{\text{高钾}}-r_{\text{铅钡}}$构建相关性差异矩阵，Pearson相关系数的抽样分布是非正态的，尤其当r的绝对值接近1时，其分布严重偏态，而Fisher-z变换能将其转变为近似服从正态分布的统计量。其公式为$z=\frac{1}{2}\ln(\frac{1+r}{1-r})$,变换后的方差稳定，趋近于$Var(z)=\frac{1}{n-3}$。

	接下来我们按照计算检验统计量后计算p值，
	\begin{equation}
		\begin{aligned}
		\begin{cases}
			& Z_\text{diff}=\frac{Z_1-Z_2}{\sqrt{\frac{1}{n_1-3}+\frac{1}{n_2-3}}}\\
			& p= 2 \times (1-\Phi(|Z_\text{diff}|))
		\end{cases}
	\end{aligned}
		\label{eq4:差异性}
	\end{equation}
	其中$1-\Phi(|Z_{diff}|)$表示单侧概率值，给定一个原假设$H_0$:两组关系系数相等，显著性水平为0.05，计算后的数据可视化如\cref{fig4:差异性结果}所示，发现除了少量组别，高钾玻璃与铅钡玻璃之间关联关系存在着显著差异。具体结果见附件。
	\begin{figure}[H]
		\centering
		\includegraphics[width=0.95\textwidth]{D/差异结果.png}
		\caption{可视化差异性}
		\label{fig4:差异性结果}
	\end{figure}
	\subsection{Bootstrap置信区间分析}
	受限于有限的样本数量，估计值与实际值之间存在着抽样误差。本文采用Bootstrap方法量化该误差并给出区间估计。具体步骤如下：
	\begin{enumerate}[label={\textbf{(\arabic*)}}]
	 \item  抽样
	 
	 从原始样本数据（例如高钾玻璃的CLR数据，样本量为 n ）中，进行 B 次（如1000次）有放回的重复抽样，每次抽样都得到一个与原始样本量 n 相同的Bootstrap样本。
	 \item  计算统计量
	 
	对于每一个样本，计算其相关系数矩阵，得到B个相关矩阵估计值。
	\item 构建置信区间
	
	取2.5\%和97.5\%分位数作为95\%置信区间。

	\item 分析区间
	
	置信区间的宽度（U - L）反映了估计的精度。区间越宽，说明基于当前样本量的估计越不精确，不确定性越大；如果高钾玻璃和铅钡玻璃的某个相关系数的置信区间没有重叠，这是一个强烈的信号，表明两者的差异在统计上是显著的；如果一个相关系数的置信区间包含了0，那么我们无法排除该相关系数在总体中实际上为0的可能性（即无线性相关）。
	\end{enumerate}
	通过上述Bootstrap置信区间分析后，我们选取4对化学物质可视化为\cref{fig4:置信结果}。可以发现8组数据中，5组置信区间都包含了0，3组数据不包含0，说明5组数据有着线性无关的可能，3组数据大概率强相关。而上述关联分析中，强相关数据恰好只包含了这3组数据，这说明了模型关联关系分析的准确性；而置信区间的重叠程度吻合于\cref{fig4:差异性结果}中数据点关于主对角线的偏离程度（两者正相关），这证明了模型差异性分析的正确性。
	\begin{figure}[H]
		\centering
		\includegraphics[width=0.95\textwidth]{D/置信分析.png}
		\caption{区间分析结果}
		\label{fig4:置信结果}
	\end{figure}